最小二乘法：背后的假设和原理（前篇）

2017-11-10 alg-flody 算法channel

戳上面的蓝字关注我们！

作者：alg-flody

编辑：Emily

今日话题

总结了一些最基本的机器学习概念，比如特征，训练集，维数，假设空间，通过一个例子说明什么是机器学习的泛化能力，再阐述了什么是归纳偏好。是时候开始进一步体会机器学习算法了，我们先从最基本但很典型的线性回归算法之OLS说起吧，它背后的假设和原理您了解吗？本系列带来细细体会OLS这个算法涉及的相关理论和算法。

1 线性回归的例子

我们接下来要预测房屋的价值，其中考虑的特征包括房屋的面积，和房屋的已使用年限。如下图所示的4条样本：

房屋面积	使用年限	房屋价值
85.17	5	68
120	12	130
102	6	104
59	3	49

现在，一个房屋面积为78，使用年限为4年的房屋，根据上表提示的数据预测下这个房屋的价值，这是我们的目标。

考虑：房屋面积和使用年限都会影响房屋的价值，不过我们现在还不知道它们各自对价值有多大的影响？

此时我们预测的房屋价值是一个连续值，因此回归得到的是一个值，这是一个典型的二元回归问题，如果要从线性回归入手，就是二元线性回归。通俗点说就是找到一个面（x1, x2）能很好的拟合（y房屋价值）以上4个样本。

2 建立模型

先从最简单的线性回归思路出发，这也是机器学习的基本思路，从最简单的模型入手。

假设1 是房屋面积的权重参数，2 是使用年限的权重参数，那么拟合的平面便可以表示为：

要习惯用矩阵的表达，上面这个求和公式用矩阵表达为：

其中，

表示为

3 完整求解思路

3.1 求解误差

在假设了以上的模型后，接下来最重要的是求解方程中的3个参数，其中第一个参数为偏置项。

我们知道预测值和真实值之间一般是存在误差的，误差值用表示，公式如下所示：

其中,

是第 i 个样本的真实值，注意这种标记方法，这是很重要的。

问题来了，误差的分布情况可以是任意的吗，还是需要满足某种分布规律才行？

3.2 误差分布假定

以上这个问题是非常重要的，如果误差分布没有满足某个规律，这个就很难做出预测了，因为它没有规律啊！

所以我们假设任何一个样本的误差项满足独立同分布，并且服从均值为0方差为一定值的高斯分布。

至于什么是独立，什么是高斯分布，大家可以参考本公众号推送的知识储备系列，公式如下：

在做出这个假定，分布服从高斯分布后，我们就可以将误差项直接带入一维高斯分布的公式中。

然后将误差项：带入上式，可得：

上式中的 x 和 y，方差都是已知量，f为概率的取值，那么，由这个公式该如何求解参数呢？

3.3 似然函数求参数

是的，似然函数的确是求解类似问题的常用解决方法，包括以后的解决其他模型的参数，也有可能用到似然函数。

如果对似然函数无感觉，那么也请看一下明天推送的知识储备系列文章，一看您就明白了。

预知借助似然函数的相关理论求解权重参数，请看明天的推送，谢谢您的阅读。

主要推送关于算法的分析过程及应用的消息。培养思维能力，注重过程，挖掘背后的原理，刨根问底。本着严谨和准确的态度，目标是撰写实用和启发性的文章，欢迎您的关注。

一把短刀，怎么就让他连捅18人？！

上海超市血案：背后缘由让人揪心

为啥一线城市只有广州取消限购？是因为穷吗

当前三大问题：国家的方向感、精英的安全感、百姓的希望感

这次我怀疑邱成桐已经“学阀化”了